2017年2月6~10日,第十届网络搜索与数据挖掘国际会议(International Conference on Web Search and Data Mining, WSDM)在英国剑桥举办。
今年恰逢WSDM会议举行10周年。WSDM创立之初就受到SIGMOD,SIGKDD,SIGIR和SIGWEB的支持,成为激励相关学术领域交叉、融合和创新的重要试验田。经过十年的发展,WSDM已经成为网络搜索与数据挖掘领域的顶级国际会议之一。
在本次大会上,程序委员会共同主席——来自谷歌的安德鲁·汤姆金斯(Andrew Tomkins)与来自清华大学计算机系的张敏副教授与一起,积极推动了大会对于“同行评审”机制的实验。经过ACM与WSDM委员会的同意,在公平、公正的前提下,设计了一套结合单盲、双盲的评审程序,应用于2017年WSDM会议的同行评审,探索和对比学术会议中“单盲”(审稿人可以看到投稿人的信息,反之则不可见)和“双盲”(审稿人与投稿人的信息双方均不可见)评阅模式在论文审阅中可能存在的偏置问题。相关的研究结果已经在arXiv上公开,并在Twitter等社交网络上被国内外同行广泛转载,在学术界得到热烈的反响和较高的评价。学术界普遍认为这是一项非常有意义的工作,对学术会议的审稿模式设置具有重要的参考价值。因此,本文着重介绍这次的实验过程和一些主要发现。
缘起与实验设置
科学论文的同行评议机制可以追溯到16世纪。目前,主流的评审方式是公开同行评议(open peer review),Nature的长期实验结果表明,60%的审稿人表示愿意公开其审稿意见(审稿人的姓名可以公开或匿名)。目前关于这一类讨论仍然在持续进行中。但WSDM 2017的实验则是从另一个角度入手——作者的信息对审稿人公开是否会对审稿人的评审意见带来显著影响?以往的相关实验,要么是在期刊审稿中进行,因为期刊与会议评审流程和时间规模等方面的明显差异,相关结论无法直接使用;要么是在同一系列会议的不同年度之间展开,论文具有差异性,因而缺乏变量控制,结论可能带来较大的偏差。此前还没有在同一年度的同一次会议中进行单盲和双盲两种方式的评审模式对比分析的文献报道。
为了尽量减少实验中的偏置,并使得评审结果尽量公正和公平,两位程序委员会主席与本次大会主席、WSDM指导委员会花了大量时间进行了讨论,并经过阿姆斯特丹大学和阿姆斯特丹自由大学的信息科学伦理委员会从符合伦理规范角度的审核批准。
实验遵循如下原则:
无偏实验原则 实验过程不会影响论文被录用的可能性。这一原则使得可采用的实验方案受到极大约束。
诚实性原则 不会对任何参与者撒谎。
综合以上原则,在WSDM 2017的投稿邀请中直接说明“WSDM 2017将会开展实验,使用混合单盲与双盲的评审方式”,并要求作者在论文中直接隐去姓名,且论文的引用和参考文献部分要避免透露作者的身份信息。同时,实验进行了如下设置:
1. 程序委员会的评审委员们(PC)被随机分到两个人数相同的组:单盲组(SBPC)及双盲组(DBPC)。
2. 在论文的评审意向选择(bidding)阶段,单盲组委员可以从投稿系统(EasyChair)中看到相应论文的作者姓名和单位信息;双盲组的委员则看不到上述信息。除此以外的系统使用界面完全相同,且两组委员均能看到论文的题目和摘要。
3. 对单盲和双盲组分别采用EasyChair系统的默认算法进行论文分配。每篇论文被分配两位单盲评审者和两位双盲评审者。
4. 论文被分配给相应的评审委员。如前所述,论文的PDF文件本身是匿名的(因此保证了该实验过程中,任何人不对论文进行任何形式的修改)。但是单盲评审委员仍然可以从系统中看到论文的作者和单位信息,而双盲评审委员则无法看到相关信息。两组使用的评审意见表格也完全相同。
5. 当两组评审意见提交后,实验结束。所有的评审委员与资深委员(SPC)一起进入讨论环节。讨论环节之前,所有评审委员只能看到自己的评审意见。SPC不参与实验,也不参与对单篇论文的评审,整个系统的作者信息对SPC成员都是开放的。在讨论环节,所有人均进入单盲模式(WSDM一贯采用的评审模式),同一篇论文的两组评审委员与系统自动分配的资深委员一起进行讨论,作者信息均可见(在讨论阶段不进行单盲和双盲的实验,也是受到原则一的限制,以避免不同组的委员因为不同条件而得到不一致的论文录用结论)。
去除因各种原因中途撤稿的论文,一共有500篇论文参与了完整的实验。
主要发现
对每个(论文,评审人)二元组,主要从下述6个二值变量进行分析(见表1):
表1 特征变量统计信息
● Academic paper:是否为学术机构的论文。非学术机构包括公司、政府、非盈利组织、无单位等。如果超过一半的作者机构为学术机构,则该变量取值为1。
● Female author:是否为女性作者论文。经过手工标注,共有1197个男性作者、246个女性作者,以及48个无法判定性别的作者。其中手工标注时尽可能基于作者的单位、电子邮箱和姓名等信息在单位或个人的主页、脸书(Facebook)、领英(LinkedIn)等网络资源上查询到明确的性别信息。如果后文没有特别说明,则如果论文有一个作者为女性,变量取值为1。
● Paper from USA:是否来自美国。
● Famous author:是否是知名作者的论文。其中知名作者定义为在过去几年的WSDM会议中有3篇或以上论文,且在DBLP中有100条以上论文记录的作者。最终有57个作者被标记为知名作者。如果一篇论文包含一个知名作者,则该变量取值为1。
● Same country as reviewer:评审人与论文是否来自同一个国家。
● Top institution:是否为著名高校论文。根据topuniversities.com的数据,排名前50的学校的论文被认为是知名学校论文。
统计检验分析结果表明,单盲评审与双盲评审具有显著差异。
首先,选择论文阶段(bidding),单盲评审人平均选择24.9篇论文作为愿意评审的论文,而双盲评审人则平均选择19.9篇论文,前者比后者多22%(p=0.0002),且单盲评审人更倾向于选择著名高校的论文(统计显著性检验p=0.018,乘数为1.12)。
其次, 在论文评审阶段(reviewing),基于多元逻辑回归模型的论文评审得分结果,单盲评审人会明显更倾向于接受来自于著名高校的论文和知名作者的论文(乘数分别为1.67和1.76, p值分别为0.005和0.01)。其他因素则不具有统计显著性差异。具体结果如表2所示。
表2 论文评审得分的回归学习结果及相关系数
第三,尽管在多个前人的研究中提到过对女性工作的负面影响,在WSDM 2017的分析中,无论在论文选择阶段还是评审阶段,双盲和单盲评审模式对女性作者论文的行为都没有统计显著的差异。此外,关于作者性别差异,WSDM2017还分析了另外两种设置。第一作者为女性(占总论文数的16.4%),以及半数以上的作者为女性(占论文总数的3.8%)。这两种情况的分析结论仍然是一样的,未能发现统计意义上显著的差异。
第四,关于评审意见的长度,单盲和双盲评审人的平均意见长度分别为2073和2061字符,未见显著差异(p=0.81)。
最后,分析讨论阶段的评阅意见改变行为,发现在讨论阶段中,分别有32个和41个单盲和双盲评审人修改了评分。因为统计检验系数p为0.28,显示并非显著区别。类似地,在评分修改幅度和评分修改方向(增加或降低)方面,也未见显著差异(p值均为0.58)。
结论
WSDM 2017中的评审实验结果表明:
1. 单盲审稿人会在愿意评审的论文(bidding)方面多选择22%的论文,而且更倾向于选择来自著名高校的论文;
2. 单盲审稿人会明显倾向于接受来自于著名高校的论文;
3. 在论文作者的性别差异上,无论是论文选择环节,还是审稿环节,双盲和单盲审稿人均没有表现出明显差异;
4. 在未来的学术会议中,建议采用双盲机制,可以更好地保证学术公平,促进领域健康发展。
相关研究结论已撰写论文Single versus Double Blind Reviewing at WSDM 2017(作者:Andrew Tomkins, Min Zhang, William D. Heavlin),并已在arxiv上公开( https://arxiv.org/abs/1702.00502)。
所有评论仅代表网友意见